요인 분석 (문단 편집)

=== 요인분석 vs. [[주성분 분석|주성분분석]] ===
아마도 '''가장 많은 혼동이 발생하는 문제'''는 PCA와의 방법론적 관계일 것이다. 요인분석은 PCA와 어떻게 다른가? 결론적으로 말하자면, '''활용 목적이 서로 굉장히 유사하긴 하지만, 그 기초 논리가 명백히 다른 것도 사실이다.''' 주성분분석에 보통 주의를 기울이는 분야들에서는 걱정할 필요가 없지만, 요인분석을 중시하는 분야들에서는 주의가 필요하다. 마치 [[한국인]]들이 이것저것 '[[일본 제국|일제]]의 잔재' 를 의심하게 되는 것처럼, 초기 요인분석가들이 아무 생각없이 PCA를 뒤섞어 쓰던 시절이 있었기 때문에, 현대의 요인분석가들도 'PCA의 잔재' 같은 것이 있는지 조심해야 하는 형편이다. 그러나 [[https://www.youtube.com/watch?v=hv1QFfjwlOo|두 기법은 명백히 다른 논리에서 시작하였다.]]

먼저 PCA를 설명하자면, 그 연구의 역사는 요인분석보다 더 오래되었다. 이쪽은 통계학자 칼 피어슨(K.Pearson)이 최초로 개발한 것에서 출발한다. 그 논리는, 주어진 데이터를 (보통 2차원의) '''좌표계로 직교 변환'''하여, 데이터의 '''가장 큰 분산이 좌표계 첫째 차원으로 설명'''되게 하고, 그 다음으로 큰 분산은 첫째 차원과 직교하는 '''둘째 차원으로 설명'''되게 하고, 이후의 차원들도 똑같은 방식을 따라가게 하는 데 있다. 여기서 각각의 차원을 주성분(principal component)이라고 하는데, 주성분의 수는 데이터가 갖고 있는 차원성(dimensionality)보다 작거나 같다. PCA는 데이터의 차원성을 축소하기 때문에, 데이터 자체의 손실 및 변형이 발생하게 된다. 기존 변수들의 설명력을 100% 가져오려면 모든 주성분을 다 사용해야 한다. 이렇게 되면 사용하는 주성분의 수가 기존 변수들의 수와 같아지기 때문에 변수 축약이라는 PCA의 목적에 맞지 않게 된다. PCA에서 실질적인 의미를 부여받을 때는, 보통 '''제1주성분 위주로 해석'''하면서 '''제2주성분을 보조로 활용'''하고, 제3주성분 이후부터는 그다지 관심을 받지 않는 편이다. 물론 제 1,2 주성분을 동원했는데 전체 변수 설명력의 절반도 설명하지 못한다면 추가적인 주성분을 사용할 수 있다. 어느 주성분까지 선택할지에 대해서는 다양한 기준이 있기 때문에 자신의 다양한 기준들을 종합적으로 사용해보고, 자신의 연구목적에 맞게 선택하면 된다.

주성분에 대해 조금 더 설명하자면, 제1주성분은 상관행렬 내에서 최대의 고유값 및 그에 대응되는 벡터 값으로 구해진다. 마찬가지로, 제N주성분 역시 자연스럽게 상관행렬 내 N번째 고유값과 벡터 값으로 구해진다. 각각의 주성분에는 [[람다]] 값이 붙게 되는데, 모든 k개의 주성분들의 람다 값을 합산하면 그 데이터의 '''총분산을 완벽하게 설명한다.''' 즉, PCA를 통해 우리가 달성하는 것은 '''데이터의 총분산 중에서 설명된 분산의 비율을 최대한 높이는 것'''이다. 다시 말해, 제1~제2주성분만 가지고 총분산의 반수 이상 정도는 설명해낼 수 있어야 성공적인 PCA가 된다. 기존 변수가 수십이라면 더 많이 써도 된다. 다시 말하지만 중요한 것은 연구목적에 맞는 기준을 뽑아내는 것이다. 예를 들어 주성분을 활용해 다른 회귀모형을 구축하고, 이를 통해 종속변수를 예측하는 것이 목적이라면 더 많은 주성분을 사용할 수도 있다. 예측이 목적이라면 최대한 많은 설명력을 끌어와야 하기 때문이다.

이렇게만 보면 요인분석과의 공통점이나 차이점이 명확하지 않을 수도 있다. 물론, 두 연구방법은 '''서로 상당히 유사한 분석목적'''을 따라서 수행된다. 이는 곧, 변인 간의 선형적 결합을 가정하고, 문항 간의 상관을 행렬로 만들어서 복잡한 자료를 간단하게 정리하자는 것이다. 하지만 이런 공통점 때문에 '''엄연히 존재하는, 너무 많은 차이점들'''이 종종 간과되기도 한다. 이를 다시 표로 정리하면 다음과 같다.

||<width=220px><bgcolor=#dddddd><:>'''PCA'''||<width=200px><bgcolor=#dddddd><:>'''질문'''||<width=220px><bgcolor=#dddddd><:>'''요인분석'''||
||<:>지표변인의 분산에서 최대한 많은 부분을 설명하기||<bgcolor=#eeeeee><:>'''분석의 초점은?'''||<:>지표변인의 상관의 구조 및 공분산을 설명하기||
||<:>NO. 모든 주성분들은 상위 주성분과 직교하는 관계, 즉 상관계수가 0이라고 전제||<bgcolor=#eeeeee><:>'''주성분/요인 간 상관을 인정하는가?'''||<:>YES. 각 요인 간의 상관관계가 존재한다고 인정하고 분석에 반영할 수 있음||
||<:>NO. 논리적으로 아예 관심이 없음||<bgcolor=#eeeeee><:>'''고유요인을 인정하는가?'''||<:>YES. 고유요인이 데이터에 영향을 끼친다고 인정하고 분석에 반영할 수 있음||
||<:>결정성(determinacy)이 존재. 다수의 변인들 간 선형적 직교변환을 통해 드러나지 않은 목적변인을 탐색||<bgcolor=#eeeeee><:>'''분석의 결정성은?'''||<:>비결정성(indeterminacy)이 존재. 다수의 지표변인들을 토대로 드러나지 않은 요인들을 탐색||
||<:>주성분들의 해석에 있어서 명확한 위계적 경중이 존재||<bgcolor=#eeeeee><:>'''해석상의 경중의 차이가 있는가?'''||<:>일단 선정된 요인이라면 모두 평등하게 취급됨||
||<:>NO. 기초해(initial solution)만으로 분석이 완료됨||<bgcolor=#eeeeee><:>'''회전이 필요한가?'''||<:>YES. 회전을 통해 최종해(final solution)를 얻어야 분석이 완료됨||
||<:>적절한 설명변인들을 어떻게 선정할 것인가?||<bgcolor=#eeeeee><:>'''분석가가 미리 신경쓸 부분은?'''||<:>적절한 지표변인들을 어떻게 선정할 것인가?||
||<:>주로 SAS 또는 R||<bgcolor=#eeeeee><:>'''선호되는 통계 소프트웨어는?'''||<:>EFA의 경우 SAS, CFA의 경우 AMOS||

이처럼 서로 다른 분석방법임에도 불구하고, 과거 [[사회과학]]계에서 관행적으로 '''요인분석 과정에서 PCA의 논리들을 빌려와서 썼다'''는 점은 부정하기 어렵다.[* 김청택 (2016). 탐색적 요인분석의 오·남용 문제와 교정. 조사연구, 17(1), 1-29.] PCA는 측정된 변인들 간의 총분산을 최대한 설명하기 위해서 차원을 축소하는 것이지만, 이런 용도의 방법론을 지표변인 간의 상관을 바탕으로 요인을 추출하는 데 오용하고 있었던 것이다. 특히 연구중심대학 풍토가 강하지 않은 곳에서 요인분석으로 [[논문]]을 써 봤다는 일부 [[중년]] 어른 분들의 경우, 막상 대화를 나누어 보면 거의 '혹시나가 역시나' 급으로 다음의 체크리스트에 걸리는 걸 볼 수 있다.

* 요인분석을 하기 위해 축소상관행렬을 쓰지 않고, PCA에서처럼 상관행렬을 고스란히 썼다.
 * 요인분석을 하기 위해 PCA에서나 하듯이 '주성분의 기여량' 을 구했다.
 * 요인모형을 세우기 위한 근거로서 PCA의 논리인 '총분산 중의 설명된 분산' 개념을 동원했다.
 * 요인추출을 하기 위해 PAF 또는 ML 등을 쓰지 않고, [[SPSS]]의 디폴트 값대로 그냥 PCA로 추출하라고 명령했다.
 * PCA의 논리를 하나 이상 동원한 상태임에도 불구하고 최종 결론에서는 지표변인 간의 상관을 논의했다.

물론, 이따금씩 '''PCA와 요인분석의 분석 결과가 서로 엇비슷해지게 되는 경우'''가 이론상 있을 수 있다. 가장 우선적으로 떠올릴 만한 상황으로는, 결국 고유요인이 데이터에 끼치는 비중 자체가 무시할 수 있을 만큼 작은 상황을 가정할 수 있을 것이다. 고유요인의 비중이 작을수록 상관행렬의 저 '우하향 1 대각선' 이 갖는 의미가 줄어들기 때문이다. 주성분분석의 관점에서는 '고유요인이 주성분에 흡수된다'라고 볼 수 있다. 하지만 이런 상황은 명백히 비현실적이며, 존재한다 해도 굉장히 드물다. 앞에서도 소개했던 《Factor Analysis》 책에서는 공통성이 .70 이상이고 지표변인 수가 35개 이상일 때에는 두 분석이 수렴한다고 말했지만, 연구자의 데이터가 늘 그 정도의 공통성을 보일 거라는 보장도 없다.

현대에는 이런 경계의식이 상당히 잘 확립되어서, 이제는 예전처럼 타성적이고 관행적으로 방법론을 섞어 쓰는 일은 굉장히 줄어들었다. 웬만큼 학문적 규율이 잡혀 있는 연구중심대학의 일반대학원에서라면, 오히려 요인분석 특강이 끝나고 남는 생각이 '요인분석 그거 PCA랑 섞으면 안 된다며?' 밖에는 없을 수도 있다(…). 어쨌거나 중요한 것은, 어떤 양적 방법론을 활용하든 간에, '''그 방법론을 채택한 분석가에게는 그 방법론의 논리가 곧 자신의 논리와도 같다'''는 것이다. 어떤 사람이 뭐라고 주장을 내세우는데 그 설득력을 뒷받침하는 근거가 그 사람 본인도 이해하지 못하는 논리라면(…), 그것은 그저 [[아무말 대잔치]]일 뿐이다. 마찬가지로, 학계에서 타인을 설득하기 위해 채택하는 방법론은 그것이 [[통계적 방법]]일지라도 결국 기초 논리가 다 있기 때문에, 설령 [[수포자|세세한 수학적 증명까지 할 자신은 없더라도]] 그 논리에 대해서는 차별성을 확신할 수 있어야 한다.

통계학과 학부과정의 다변량분석에서 사용하는 교과서는 일반적으로 주성분분석-요인분석의 순서로 내용이 배치되어있다. 이 때문에 요인분석 후반부에 주성분분석과 요인분석을 통계학적 관점에서 비교하는 내용이 있는 경우가 많으니 관심이 있으면 참고하면 좋다.
[[분류:연구방법론]][[분류:통계학]]

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

요인 분석 (문단 편집)

캡챠